Основы генеративного ИИ на Python: Парадигмальный сдвиг: от дообучения к инференсу по подсказкам

Представьте труд создания мозга по сравнению с простой передачей ему сценария. В предыдущую эру обработки естественного языка, адаптация домена была изнурительным процессом переносного обучения или PEFT (эффективное дообучение по параметрам). Мы рассматривали модели как глину, требующую тысяч размеченных примеров для физического изменения внутренних весов — процесс, который был вычислительно затратным и порождал статичные, чрезмерно специализированные версии моделей, таких как BERT.

Катализатор GPT-3

Выпуск GPT-3 стал прогрессивным (СОТА) вехой. Было доказано, что обучение в контексте—где модель распознаёт паттерны непосредственно из подсказки—часто соответствует или превосходит результаты специализированного дообучения для общих задач. Мы перешли к инференсу на основе подсказок, где задержка и стоимость обновления градиентов заменяются стратегическим внедрением контекста.

Реальный пример

Создание юридического аналитика раньше требовало недель дообучения BERT на судебных делах. Сегодня разработчик использует подсказку с тремя образцами договоров, достигая сопоставимой точности за минуты с помощью замороженной модели ИИ.

Кейс: Автоматизированный такси-водитель

Прочитайте ситуацию ниже и ответьте на вопросы.

Рассмотрим создание автономного агента-водителя такси. Его задача — безопасно перемещаться по городским улицам, соблюдать дорожные правила и максимизировать комфорт пассажира, одновременно минимизируя время поездки $\tau$.

Вопрос

1. Какие элементы составляют «среду» $E$ для этого агента?

Ответ:
Физические дороги, другие транспортные средства $v_i \in V$, пешеходы, светофоры и погодные условия.

Вопрос

2. Приведите примеры датчиков $S$ и исполнительных устройств $A$ для этого такси-агента.

Ответ:
Датчики: Камеры, лидар, GPS $(x, y)$, спидометр $ds/dt$, датчики двигателя.
Исполнительные устройства: Руль $\theta$, педаль акселератора, тормоза, клаксон, поворотные сигналы.

Вопрос

3. Как можно количественно оценить показатель производительности $U(s)$?

Ответ:
Это может быть взвешенная сумма, рассчитываемая по формуле:
$$U(s) = w_1 \cdot \text{Расстояние}(\Delta x) - w_2 \cdot \text{Время}(\Delta t) - w_3 \cdot \text{Столкновения} + w_4 \cdot \text{Прибыль}$$